Tema 5: Chequeo, Validación y Grabación 
de Datos 


Una vez recogida la información en campo se inicia la etapa de tratamiento de esta 
información. Esta etapa consta a su vez de varias fases como son: depuración, codificación, 
grabación, validación y evaluación del trabajo de campo. Es importante no olvidar que todas 
las etapas, fases y tratamientos operativos en la encuesta tienen la misma importancia. Sin 
duda, un trabajo deficiente en cualquiera de las fases que detallamos a continuación 
conduciría a resultados erróneos arruinando el trabajo de elaboración de la encuesta. 


Cada una de las etapas que describiremos a continuación se fundamentan en que ninguna 
excluye a la otra, es decir, durante el proceso de tratamiento de la información, algunas de las 
fases podrán darse conjuntamente con las demás llegando a fundirse dos o más en una única 
fase de tratamiento. Ello dependerá de la dificultad y planteamiento de la encuesta. 


1.- Codificación y Grabación Automática de los 
Datos 


Dependiendo del modo de administración, la codificación podrá ser realizada por el 
entrevistador, por un equipo especializado mediante soporte informático (en este caso estará 
íntimamente ligada a la fase de depuración que veremos más adelante), o por el propio 
entrevistado en el caso de las e-encuestas. 


Es importante que la grabación en soporte magnético de los resultados recogidos en los 
cuestionarios, vaya íntimamente ligada en el tiempo al trabajo de campo, con objeto de 
permitir simultanear los dos procesos y los posteriores de validación automática y corrección 
de errores e incoherencias, permitiéndose, con ello, aproximar al máximo los primeros 
análisis de datos a la recogida de información. Se trata, con ello, de facilitar la solución a 
tiempo de determinados problemas e inconsistencias y de efectuar un mejor control de calidad 
de los datos producidos. 


Los mejores métodos de grabación son los denominados de grabación inteligente tipo C.A.D.I 
(acrónimo de Computer Assisted Data Input o Entrada de Datos Asistida por Ordenador). 
Estos sistemas de carga deben permitir: 


e Definir de forma flexible el formato de pantalla para la grabación; lo más indicado es 
que las pantallas de introducción de datos sean construidas a imagen y semejanza del 
cuestionario, lo que ayudará a los grabadores a identificar inequívoca e 
inmediatamente la pantalla con el papel cuestionario, evitando errores de corrimiento. 

e Automatizar la grabación de determinados campos por medio de contadores y el 
traslado de la información de campos iguales incluso a registros diferentes. Esta 
potencialidad es básica para garantizar una estructura homogénea en cuestionarios de 
la complejidad del utilizado. 

e Proporcionar estadísticas de control del trabajo de grabación: productividad, etc. 

e Contener módulos de verificación o de doble grabación sobre un fichero pregrabado 
con sus correspondientes estadísticas de coincidencia. 


e Apoyar al usuario con un menú pormenorizado de alimentación del programa y de 
ayuda en la grabación. 

e Definir de forma flexible el formato de salida del fichero. 

e  Imponer controles de validación obligatorios de forma que su incumplimiento obligue 
a no grabar, hasta su corrección, los cuestionarios afectados. 

e Establecer fuertes controles de grabación que impidan admitir errores en los campos 
básicos de definición de las unidades objetivo (identificadores, código de actividad, 
estrato, etc.) validando conjuntamente esta información con relación a un fichero 
exterior que incluye la relación de objetivo o cargándolos directamente desde el 
programa gestor del trabajo de campo. Los errores en estos campos con control fuerte 
deben detener la grabación del cuestionario hasta su corrección. 

e Introducir controles de rango de cada campo, en los campos cerrados con los valores 
explícitos en el cuestionario y en los abiertos con los determinados en el libro de 
códigos. 

e Incorporar un sistema de doble grabación ciega; este método permite que el grabador 
vuelva a grabar la información sin ver la existente en la primera grabación; el 
programa se paraliza cuando trata de introducirse un valor distinto al existente en la 
grabación anterior debiendo introducir la persona encargada del control de calidad de 
la grabación el dato finalmente válido. Este sistema, además de asegurar la máxima 
calidad en esta fase permite seleccionar el personal que comete errores y realizar 
mediante un muestreo estadísticas de coincidencia que evitan repetir de nuevo todo el 
trabajo en una segunda grabación. 


Un procedimiento adecuado es controlar la grabación y pasar la misma a la fase de validación 
por lotes de grabación; de esta forma es posible avanzar llevando a cabo simultáneamente las 
distintas fases del trabajo. 


Existen otros métodos de grabación óptica en cuyo desarrollo se está avanzando rápidamente 
y que resuelven ya, con gran calidad, la grabación de ciertos cuestionarios, los ya explicados 
anteriormente: El OCR (acrónimo Optical Character Recognition o Reconocimiento Óptico 
de Caracteres) y el OMR (acrónimo de Optical Mark Recognition o Reconocimiento Óptico 
de Marcas). 


2.- Chequeo y Validación 


Una vez grabada la información ésta debe ser validada. Es, por tanto, necesario elaborar un 
plan de validación automático de la información obtenida que nos permita localizar los 
posibles errores (control de rango y flujo, observaciones anómalas, outliers, etc.), los que 
tienen insuficiencias (valores en blanco o perdidos) o incoherencias-inconsistencias lógicas 
(del tipo padre con tres años, abuelo con 14, etc.). 


Uno de los métodos más aplicados en esta fase es el de Fellegi y Holt. Este método nos 
permitirá registrar valores erróneos y corregirlos de forma que el fichero resultante no tenga 
inconsistencias. La aplicación del programa de validación permite obtener una serie de 
registros y variables no validadas tal que, tras un análisis exhaustivo de los elementos no 
validados, posibilita determinar la actitud a adoptar para la superación de las insuficiencias e 
incoherencias. 


Durante el proceso de validación tendremos que controlar errores de tipo formal, como 
incoherencias de la información obtenida respecto a las normas de cumplimiento del 
cuestionario, errores de rango y errores que relacionan la respuesta en diferentes campos en 
función del “grafo” explícito del cuestionario. O errores de contenido, como por ejemplo 
incoherencias entre la información recogida en diferentes campos relacionados. Más adelante 
nos centraremos en el estudio de los tipos de errores que se pueden producir en el proceso de 
elaboración, diseño y realización de la encuesta. 


La fase de validación de los datos debe producirse lo más próxima posible en el tiempo a la 
fuente que ha producido el error, supóngase que el error se ha cometido en la entrevista, pues 
bien, su corrección exigiría acudir de nuevo a ella, cosa que únicamente es factible cuando 
entre los dos contactos ha pasado el menor tiempo posible. 


Los controles de validación más frecuentes son: 


1. Controles de rango y flujo: constituyen los controles puramente formales por cuanto 
validan la coherencia interna de la cumplimentación y grabación de la información de 
cada cuestionario. Validan el rango prefijado de cada campo de información y el flujo 
o relación entre campos según las órdenes explícitas del cuestionario. Los controles de 
flujo solo admiten relacionar dos campos como máximo. 


2. Controles cruzados: contrastan relaciones entre la información de dos y más campos. 
Completan la validación formal y permiten la introducción de controles de contenido. 


3. Controles especiales: admiten la formulación matemática y son los específicamente 
destinados a la validación de la coherencia de contenido. 


Sólo cuando los errores puramente formales de rango y flujo están corregidos deben aplicarse 
los de contenido. La secuencia en las tareas de validación será la siguiente: 
1. Control de recepción y cobertura de los ficheros grabados. 
2. Validación de la estructura de la información. 
3. Ejecución de los controles de Rango y Grafo. 
4. Corrección manual de errores. 
5. Grabación de las correcciones y ejecución del programa de corrección. 
6. Ejecución repetida del mismo tipo de errores sobre el subfichero de registros con 
error hasta que el número de errores sea nulo. 
7. Ejecución repetida de forma similar de los controles cruzados con todas sus fases. 
8. Ejecución, también repetida, de los controles especiales. 
9. Ejecución, de nuevo, de todos los tipos de controles para verificar que no hay 
errores (las correcciones en unos submódulos pueden provocar errores en otros). 


Por su parte, la evaluación del trabajo de campo comprenderá a su vez las siguientes fases: 
revisión del cumplimiento de la muestra, análisis y tratamiento de la no respuesta, imputación 
y la post-estratificación o reequilibrado de la muestra. 


La mayoría de las grandes encuestas que llevan a cabo los organismos estadísticos nacionales 
han sido diseñadas en base a un tamaño muestral que garantiza la mayor probabilidad de los 
estimadores a escala estatal. Pero en algunas operaciones, por dificultades en los trabajos de 
campo, la muestra es más restringida que la población objeto de estudio, por ejemplo, en 


muestras estratificadas esta reducción de tamaño puede afectar de forma diferente a los 
distintos estratos, lo que, a su vez, puede ocasionar consecuencias de distintos tipos. 


El análisis estadístico de los resultados debe comenzar con la comprobación de este hecho y 
con el análisis de las causas de porqué se ha producido; interesa detectar, en particular, si 
entre estas causas está la incidencia de determinadas no-respuestas que pueden ocasionar 
sesgos. 


Si no se realizan más entrevistas para paliar la falta de cumplimiento de la muestra, es 
necesario cambiar los factores de ponderación inicialmente previstos, pero, además, si no se 
cumplen determinados perfiles de la muestra original, puede ser necesario proceder a realizar 
una post- estratificación. 


3.- Falta de Respuesta 


El diseño de una encuesta por muestreo comprende varios aspectos íntimamente ligados, ya 
que la falta de cualquiera de ellos puede invalidar la encuesta en su totalidad. Como ya hemos 
comentado, básicamente para plantear la encuesta han de seguirse las siguientes etapas: 

1. Determinación del objetivo de la encuesta. 

2. Estudio de las condiciones generales a las cuales ésta se desarrollará y de las 
restricciones a las cuales estará sometido el estadístico. 
Elección de un sistema de trabajo para la recogida de datos. 
Trabajo de campo. 
Proceso de datos y control de su calidad. 
Análisis estadístico, interpretación de los resultados. 
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La importación relativa de cada uno de los apartados depende mucho del tipo de encuesta 
efectuada, si bien es de gran importancia para cualquier encuesta la fase referente a la 
depuración, de datos y control de calidad de los mismos corrigiendo errores, detectando datos 
anómalos, etc. 


Esta fase de chequeo y validación de los datos incluye una evaluación del grado de 
adecuación de la muestra. Un problema que surge principalmente en este sentido es el de la 
falta de respuesta, situación que se da cuando por ciertos elementos ajenos al diseño de la 
muestra, no puede obtenerse toda o parte de la información deseado, la información obtenida 
no puede utilizarse. Esta situación provoca de forma inmediata la disminución del tamaño 
muestral y la aparición de sesgos. 


Como decimos, la falta de respuesta es uno de los problemas más importantes de entre los 
errores ajenos al muestreo, que también viene a denominarse como “sin respuesta”, “e 
desconoce”, etc. Es obvio que este problema solamente aparece cuando el método de 
muestreo es aleatorio, y no en otros tipos de muestreo como por ejemplo el muestreo por 


cuotas. 
La falta de datos puede deberse a causas muy diversas: 


e Ausencia temporal del individuo seleccionado para entrevistar, “los no en casa”: 
este grupo contiene personas que residen en el lugar pero que se encuentran 


temporalmente fuera de casa, también puede ocurrir que se haya producido un 
cambio de domicilio. 


e Negativa absoluta a colaborar, “los huesos duro”: son aquellas personas que 
cerradamente rehúsan ser entrevistadas o también personas de difícil accesibilidad 
como, por ejemplo, los miembros de un clan que rechacen al que pretenda 
visitarlos (grupos marginados, sectores raciales, etc.). Esto representa una fuente 
de sesgo que persiste sin importar cuanto esfuerzo se ponga en la perfección de las 
listas. 


e Falta de conocimientos del entrevistado o incapacidad por parte del entrevistador; 
a pesar de tener buena voluntad de colaborar puede ocurrir que se desconozca o no 
se recuerde la respuesta a lo que pregunta, pero también puede ocurrir que el 
entrevistador no haya querido o haya sido incapaz de explicar el contenido de la 
respuesta. 


e Pérdida de la información: puede tratarse de un simple extravío del material ya 
recogido. 


e No cubrimiento: puede ser debido a condiciones ambientales, escasa facilidad de 
transporte, etc., que hacen imposible alcanzar ciertas unidades de la muestra 
durante el periodo de la encuesta o bien simplemente, áreas que no hayan sido 
cubiertas en la realización del muestreo. 


3.1.- Efectos de la falta de respuesta total 


Las causas que hemos mencionado anteriormente producen un efecto de sesgo en la 
estimación de los parámetros, que será mayor cuanto más grande sea la falta de respuesta. 
Esta circunstancia se puede demostrar teóricamente, para lo cual es útil considerar las N 
unidades de la población dividida en dos estratos, los que contestan N¡ y los que contestan Na, 
Si la característica que tratamos de estimar es, por ejemplo, la media de la característica 
poblacional X: 





X=wX,+wX, siendo w == 


y definiendo 


X,: media de la población que contestan. 
X,: media de la población que no contestan. 
Si utilizamos solamente unidades del estrato que contestan y sabemos que x, es un estimador 


insesgado de X;: 





B=E(x%,))-X =X (wX,+w,X,)=X,(1-w,)-w,X, 


Sabiendo que w, + w, =1, Obtenemos: 
B=w, (x, pS X,) 


Podemos decir que el sesgo obtenido es proporcional al peso del estrato que no contestan, por 
tanto al aumentar N, (no respondientes) para una población total de N unidades, aumentará 
considerablemente el sesgo. 


Observamos que la falta de respuesta produce, por un lado, una disminución en el tamaño de 
la muestra que disminuye la precisión y, por otro, un sesgo independiente del tamaño 
muestral. El primer efecto puede compensarse aumentando el tamaño de la muestra, por 
ejemplo, mediante sustituciones aleatoriamente elegidas, pero la información obtenida 
siempre se refiere a un solo estrato y el sesgo permanece invariable. 


3.2.- Tratamiento primario de la falta de respuesta (Fase de 
Campo) 


A continuación vamos a estudiar algunos métodos para el tratamiento de la falta de respuesta. 
En primer lugar hay que considerar la fase de planificación y diseño de la encuesta: hay que 
prestar atención a la obtención del marco, así como el diseño del cuestionario que juega un 
papel importante en la eliminación del rechazo a contestar. No obstante, la lucha más 
importante con la falta de respuesta se da en la recogida de los datos así como en las etapas de 
su procesamiento y análisis, que desarrollaremos en epígrafes siguientes. 


Encuestas Repetidas (CALLBACKS): una de las técnicas utilizadas es repetir las visitas 
hasta un número mínimo, antes de abandonar una unidad. Las encuestas repetidas pueden 
tomar formas diversas, dependiendo del tipo de encuesta y de las formas de recoger los datos. 
Las encuestas repetidas son la forma mas “limpia” de reducir la no respuesta. 


Los otros métodos se basan en la aceptación por el diseñador del riesgo al sesgo causado por 
un método particular frente al coste de hacer revisitas. En las encuestas por correo la encuesta 
repetida suele ser una carta, recordando la importancia de la encuesta e incluyendo una copia 
del cuestionario. No suele haber más de dos repeticiones y estas se realizan antes de que 
finalice el plazo de recogida de los datos (como se comentó n el anterior tema). En el caso de 
encuestas telefónicas las repeticiones suelen hacerse también por teléfono y se suelen permitir 
más repeticiones que en cualquier otro tipo. Finalmente, en el caso de entrevistas personales 
las encuestas repetidas se hacen volviendo a llamar a las personas por teléfono. 


Diversos estudios confirman que: 
- El mínimo de respuestas se incrementa sustancialmente cuando crece el número de 
repeticiones. 
- La estimación de la media después del primer intento de realizar la encuesta difiere 
sustancialmente de la estimación tras varias repeticiones. 


La encuesta delegada (PROXY): esta técnica consiste en elegir datos de una unidad 
alternativa. Por ejemplo en las encuestas familiares en caso de que no sea posible obtener la 
información de la persona indicada, se puede hacer para cualquier otro miembro de la familia 
mayor de cierta edad. Naturalmente las respuestas tienen una probabilidad de ser incorrectas 
en estos casos pero puede no ser peligroso para ciertas encuestas. Si la información requerida 
es confidencial o personal entonces la encuesta delegada puede ser confusa. 


Sustitución de Unidades. En el momento de recoger los datos se procede a una sustitución 
usando unidades que no había sido seleccionado para la encuesta. Con este procedimiento se 
logra mantener el tamaño de la muestra y con ello no aumentar el tamaño de la varianza. Hay 
dos tipos básicos de sustituciones a usar: 

- Selección de una unidad aleatoriamente. 

- Selección de un sustituto específicamente designado. 


El procedimiento de sustituciones no es recomendable ya que no consigue información sobre 
el estrato de la falta de respuesta. Además puede introducir sesgos nuevos debido a la 
dificultad de controlar las sustituciones y a la utilización de reglas de sustitución sesgadas. 


El Uso de Incentivos: El método está bien establecido y se usa a menudo. Un incentivo 
puede ser menos costoso que una llamada adicional. La planificación del incentivo se basa en 
el coste de las llamadas adicionales que habrían de utilizarse en realizar revistas. Sin embargo, 
tiene inconvenientes como el que para conseguir el incentivo se da información errónea. 


Otros Métodos. Existen también otros métodos entre los que destacan la motivación del 
encuestado acerca de la importancia de su contestación, y el método de Kish y Hace ( 1959). 
Este último método consiste esencialmente en utilizar en una encuesta direcciones 
correspondientes a la falta de respuesta en una encuesta anterior que sea similar. Se hace un 
número mínimo de intentos especificado para obtener respuestas con los dos conjuntos de 
direcciones. 


Las respuestas obtenidas en la encuesta actual en las direcciones correspondientes a la falta de 
respuesta en una encuesta anterior y se considera como sustitutos para la falta de respuesta en 
la encuesta actual. El método de Kish y Hace puede reducir, bajo ciertos requisitos, el sesgo 
debido a la falta de respuesta, aunque requiere controles especiales, puede complicarse el 
diseño de la encuesta y requerir una encuesta previa, similar, en la que pueden obtenerse las 
direcciones de la falta de respuesta. 


3.3.- Métodos estadísticos para el tratamiento de la falta de 
respuesta 


Hemos visto que los métodos anteriores se aplican fundamentalmente para corregir el 
problema de falta de respuesta en el periodo en de recogida de datos. Los métodos que 
veremos a continuación se aplicarán si ya ha concluido la fase de campo, y pretenden paliar 
los efectos que provoca la falta de respuesta en las estimaciones de los parámetros de interés. 


Método de Hansen y Hurwitz: consiste en la utilización de un muestreo bifásico, con 
selección en la primera fase de una muestra aleatoria simple de n unidades que de entre las 
cuales existen n; de las que se obtuvieron información en el primer intento y n, que no 
contestan. De las nz unidades se obtiene una muestra aleatoria simple de n>; unidades en las 
que se realiza un gran esfuerzo para conseguir la información. Tenemos: 
M1 n 

n=1, +), pd A 

se considera como estimador del total: 


siendo: 
e. 1=X el estimador del total de los que responden. 


e X,==—x: el estimador del total de los que no responden. 
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Es interesante notar que el estimador definido es insesgado de X, es decir, E (x )= X , puesto 


que, al ser el muestreo bifásico EX )- E, (E, (X ) donde el subíndice 1 indica la esperanza 


sobre la muestra n y el subíndice 2 la esperanza sobre la muestra n,, . De esta forma: 


aleje) elelpereenacopal 


El + +2.) = Ela] = E,(Nx)= NX = X 
qe a 





Además, para una función de coste dado se pueden determinar los valores óptimos de n y f,,. 
Para ello sea la función de coste: 


C=nC,+n¡C,+n,C, 


e Co: coste por unidad de la muestra total, (coste inicial de selección). 
e C¡: coste por unidad de la muestra de respondientes. 
e C>: coste por unidad de la muestra de no respondientes y que puede escribirse como: 


n Nn>, NA 
C=n CC +C +2%=20C, 
n n, n 
: Moa Mos 
siendo —=P, y =P, de donde se deduce el coste esperado como: 
n n 


E(C)= n(c, +C,P, + e 


N N 
con PA= y P ==. 
N N 
Los valores de n y f,¡ que minimizan el coste esperado para una precisión establecida igual a 


Vo (X ) se obtienen mediante el método de los multiplicadores de Lagrange: 





E pS ( ¡visi =>. (2) 
n 21 


donde 


ES 


es la varianza del estimador del total X , según el muestreo bifásico, (veáse el cálculo en 
Azorín y Sánchez- Crespo, pp. 239-240). Para una mejor derivación la expresión anterior se 
escribe como: 








s? N( 1 a 
D=nle,+c,P.+c,P,f,)3 q NS (> 1,53 — ) 
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y se deriva respecto a n y f>¡ e igualará a cero. A continuación se despejan e igualan los 
valores A de ambas ecuaciones, con lo que se obtendrá: 





Sabiendo que V, (X ) es la varianza del estimador del total, en el supuesto de que no existiera 
falta de respuesta (es decir sólo tendríamos que aplicar una primera fase para la obtención de 
la muestra) y si en ella representamos n' como el tamaño de la muestra necesario para obtener 
esta varianza, es decir, 


Podemos determinar el valor de n igualando vol X ) y v( k ), es decir: 


2 
n= Lajas 
La S 


donde n es el tamaño de la muestra necesario para obtener una varianza v( 


OS 


) cuando existe 
una proporción P» de falta de respuesta. Se puede decir sintéticamente que: 


e Este método es tanto más ventajoso cuanto mayor sea la diferencia entre los costes por 
unidad en ambas fases, aunque es más adecuado para las encuestas por correo. 

e Al complicar bastante el diseño de la encuesta y junto con otros inconvenientes 
técnicos hace que sea un diseño que se utilice poco en la práctica. 


Método de Politz y Simmons. En este método que trata de reducir los sesgos se supone que 
el entrevistador realiza una sola visita o intento para conseguir la información. Supóngase que 
se hicieron visitas durante seis noches en la semana. Al entrevistado se le pregunta si estaba 
en casa al momento de la entrevista en cada una de las cinco noches anteriores en la semana. 
Si el declara que estuvo en casa t de las cinco noches se toma la razón: 


q === (1 =0,1,2,3,4,5) 


que la definiremos como la probabilidad de encontrar a esa persona que contesta en el 
momento de la entrevista. 


Los resultados obtenidos estarán, en general, influenciados por las contestaciones de aquellas 
personas que permanecen en la casa más tiempo. Para disminuir el sesgo que puede producir 
esta influencia se hace la pregunta adicional: ¿En cuantos de los cinco periodos anteriores de 
la entrevista se le hubiese encontrado en casa? (utilizaremos 7,). Supongamos que con las 


contestaciones formamos 6 grupos: 


n, : número de entrevistas obtenidas en el t-ésimo grupo. 


x, : media del t-ésimo grupo. 


Tenemos: 


El 
2 29% 
Za MES — 10 
Sn, =n2, y 
1=0 n y 
n, 


El estimador de Politz y Simmons pondera las contestaciones con el recíproco de la 
probabilidad de permanecer en casa: 








Con este método se sustituye la media sesgada x por el estimador x ,, que tiene menor 


sesgo, pero con una varianza aumentada por la utilización de ponderaciones estimadas. Este 
aumento se cifra por varios autores entre el 25% y el 35%. 


Kish y Cochran señalan una serie de inconvenientes que hacen por lo menos dudosa la 
conveniencia de una posible aplicación general de este método. No obstante, si sólo es posible 
una visita, o los sesgos debido a la falta de respuesta en una primera visita son importantes y 


E de ' 1 
la muestra es grande, puede resultar preferible utilizar las ponderaciones —. 


T, 


Por último diremos que este método tiene la ventaja de economizar tiempo, y que también se 
puede usar con varios intentos. 


Método de Platek, Singh y Tremblay. Este método trata de aplicar un modelo particular 
para el estudio de la no respuesta. En éste, la población se considera formada por 


respondientes potenciales siendo P; la probabilidad de que conteste la unidad u; en una 
encuesta determinada. Para la unidad 1 el modelo es: 


X,= (valor observado): e, + (valor imputado)-(1—e,) 
siendo: 


X o: el valor sin error, “verdadero”, o esperado. 
X¡+€, (R) : el valor observado. 
X¡+€;, (NR) : el valor imputado. 
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Indicando por e, el error aleatorio de respuesta y no respuesta. Introduciendo la variable 
aleatoria auxiliar: 


0 si u, no contesta con  probabilid ad 1- P,. 


Y 


( si u, contesta con  probabilid ad P,. 
€, = 


el modelo puede escribirse en la forma: 


S 


Xi; =(X, +£/(R))-e, +(X, + €, (NR))-(1-e,) 


entonces, si llamamos 1 a cualquier unidad que responde y j a cualquier unidad que no 
responde tenemos el siguiente modelo: 


X ,=(X,+€,(R)) 
Xx ,=(x,+e, (VR) Aj 


Se puede demostrar que el sesgo y la varianza del estimador X = > X, (siendo k cualquier 
k 


unidad, tanto la que responde —valor observado- como la que no responde —valor imputado-) 
son respectivamente: 


BZ )- sesgo de no respuesta + sesgo de respuesta. 


v(x)= varianza de no respuesta + varianza de respuesta + varianza de imputación + 
covarianza entre errores de respuesta y errores de imputación. 


Plateck y otros consideran los valores del sesgo y la varianza para las siguientes hipótesis de 
imputación, lo que conforman diferentes métodos de utilización de este modelo: 

e Se efectúa ajuste para corregir la falta de respuesta, (para ello se utilizan los 
respondientes para ajustar una recta u otra función cualquiera que se pueda ver más 
adecuada y luego se imputan los no respondientes según el ajuste). 

e  Seutiliza un factor de corrección uniforme, (esto permite la reducción del sesgo de no 
respuesta, con relación al primer método, cuando las unidades tienen más o menos la 
misma probabilidad de responder). 

e Se emplean datos externos, (no se produce ajuste, se imputan valores utilizando datos 
de ocasiones anteriores, la eficiencia de este método depende de la proximidad entre 
ambas fuentes de información). 


Método de Thomsen y Siring. La principal novedad de este método es que la varianza, el 
sesgo debido a la falta de respuesta y el coste, son parámetros estimables. Cuando un 
entrevistador establece contacto con una unidad, los resultados podrían ser: 

1. Obtención de respuestas con probabilidad P. 

2. No obtención de respuestas con probabilidad f y decisión de realizar intentos 
sucesivos C = 1, 2,...,c, con probabilidad constante P - D de obtener respuesta (por 
ejemplo en las ausencias). 

3. No obtención de respuestas e inclusión de la correspondiente unidad en la categoría de 
los no respondientes, con probabilidad f ( por ejemplo en las negativas). 


De acuerdo con estos supuestos tendremos las siguientes probabilidades de obtener respuesta: 
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fed : ú | 


(1-P.-D-fXM-P-D-f)*-P-D si c22 


ya que: 


di 8 J=* e 


A sl P-fX1-P-D-f)P-D 


respuesta se 
A) 


A 





(-P-fX-P-D-fPP-D 








a Sl P-$X-P-D-f$Y?P-D 


Los parámetros P, D y f pueden estimarse si se dispone de información sobre el número de 
intentos. Un modelo matemático sobre el número de intentos puede verse en Deming. 


4.- Post-Estratificación 


La post-estratificación o reequilibrado de la muestra una técnica de Muestreo que consistirá 
en hacer una estratificación a posteriori. La técnica puede emplearse siempre que, con carácter 
previo no se tenga información suficiente sobre la población o siempre que no sea posible 
aplicar técnicas suficientemente buenas para la selección aleatoria durante el trabajo de 
campo. Particularmente puede resultar necesaria en los muestreos no probabilísticos 
(muestreo por cuotas, por rutas aleatorias, etc.). 


Consiste en definir a posteriori los estratos en función de los distintos valores de una o varias 
variables. Es una técnica robusta que funciona aceptablemente bien en bastantes situaciones; 
una forma sencilla de llevarla a cabo es la siguiente: 
1. Elección de un tamaño muestral razonablemente elevado. 
2. Distribución de la muestra de forma que estén adecuadamente representadas todas las 
categorías de la población a las que se les pone a priori un componente estratificador 
(por ejemplo, edad, sexo, nivel de estudios,etc). 
3. Análisis e los resultados muestrales para obtener los componentes homogeneizadores 
respecto a la variable o variables de interés. 
4. Estudio de los tamaños muestrales efectivos y de los errores de muestreo que 
conllevan para cada uno de los nuevos estratos. 
5. En caso necesario, ampliación de la muestra en campo para los estratos menos 
representados. 
6. Cálculo a posteriori de los elevadores o factores de expansión o ponderación y de los 
estimadores resultantes. 
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En resumen, en la post-estratificación comparamos el peso para cada estrato de las variables 
sociodemográficas conocidas con el factor real observado para dicho estrato. De esta forma se 
hace coherente la muestra realmente observada con la ponderación teórica conocida. 


El caso más simple es aquel que se realiza con una única variable si bien cada vez más se 
suele post-estratificas con más de una variable. El problema que se presenta en el caso 
múltiple es el cruce de muchas variables a la vez, esto nos proporciona “celdas vacías” en la 
muestra realmente observada. 


En el caso de una variable: 
n L 
X=N->) x > X son = ON 0 Y, 
i=1 


N;, : tamaño del post-estrato 
Xx, : media de X en el estrato (post-estrato) h. 


5.- Evaluación de las Fuentes de Error 


En los estudios mediante muestreo, como en cualquier tipo de investigación, pueden existir 
errores de diversas fuentes. Henry (1990) señala que los errores en el diseño de encuestas 
pueden aparecer en las diversas etapas que se siguen en el estudio. En el cuadro siguiente se 
presenta el esquema de las fuentes de error. Como se puede observar, el error total se puede 
desglosar en sesgos no debidos al muestreo, esto es, el error sistemático previo o 
independiente de la selección de la muestra; sesgos de muestreo, es decir, el error sistemático 
producido en la selección de los sujetos que componen la muestra; y variabilidad muestral, 
que dependen tanto del tamaño de la muestra como de su homogeneidad. Podemos definir el 
error total como la diferencia entre el valor real de la característica en estudio en la población 
objetivo y la estimación del mismo basada en los datos muestrales. 


Sesgos no debidos al Población objetivo 
muestreo > 


Listado y Marco 
No respuesta 
Error de medida Población de estudio 





Sesgos debidos al 
Error muestreo 


total Sesgo de selección 
Sesgo de estimación 
Distribución muestral 
Variabilidad muestral 
Tamaño de la muestra 


Homogeneidad muestral Muestra 
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5.1- Errores no debidos al muestreo 


Es el error sistemático que se comete debido a diferencias en la definición de la población. Es 
la diferencia entre el valor verdadero de la población objetivo y el valor de población obtenido 
si las operaciones de recogida de datos se hubieran realizado en la población completa. Varias 
son las fuentes de error: 


Diferencias entre la población objetivo y la población estudiada. Como ya definimos 
anteriormente, la población objetivo es el grupo acerca del cual el investigador quiere explicar 
los resultados de su trabajo. Se define basándose en condiciones e inquietudes que surgen de 
la teoría que está siendo probada. En ocasiones, puede suceder que la población objetivo sea 
dinámica, con lo que su listado puede ser incompleto y algunos de sus miembros no 
identificables. En tal caso, la población de estudio no coincide con la población objetivo. 


Este error se conoce como error de cobertura o de marco muestral y se produce cuando el 
marco muestral con el que se cuenta difiere de forma importante de la población elegida para 
su estudio. Este tipo de errores se debe a la existencia de marcos muestrales poco actualizados 
o sesgados. La única solución es contar con un marco muestral completo, modificándolo o 
actualizándolo. 


Sesgos por ausencia de respuestas. Los cuales resultan por o bien incapacidad de contactar 
con determinados miembros de la población, o por la negación de los sujetos a contestar. En 
el primer caso, la solución estribaría en repetir la visita hasta dar con la unidad muestral que 
se desea entrevistar o, en caso de que se haga inviable dar con la persona en cuestión, 
establecer forma de sustitución, claramente definidas. 


Con el error de no respuesta no se consigue obtener información de un individuo incluido en 
la muestra. El sesgo de no respuesta se produce cuando la muestra final difiere de forma 
sistemática de la muestra seleccionada en la investigación. El problema no es tanto que la 
muestra se vea reducida en su tamaño, incrementándose de esta manera el error que se hubiera 
marcado el investigador, sino que las personas que no responden a la encuesta pueden tener 
características bien distintas a los que sí la completan. De esta manera, no sólo se aumenta el 
error; este no puede ser cuantificado y es posible que sea un error sistemático que 
comprometa la exactitud de la investigación. 


El problema que subyace es tratar de saber cuan representativa de la población es la muestra 
obtenida. Breakwell, Hammond y Fife-Shaw (1995) afirman que hay dos procedimientos para 
comprobar la representatividad de la muestra: 
e En primer lugar, hay que definirla tan exactamente como sea posible, comparándola 
con datos conocidos de la población, como pueden ser datos censales. 
e Un segundo procedimiento es comparar los resultados obtenidos con los de estudios 
previos. 


Anteriormente hemos comentado algunas técnicas para aumentar las tasas de respuesta: p.e. 
cuando no se encuentra en el domicilio la persona seleccionada, realizar otros intentos o 
utilizar sustitutos. Weiers (1986) presenta varias formas de resolver el problema de la 
ausencia de respuestas: 
a) Determinar si tiene efecto la ausencia de respuesta en nuestra investigación 
b) Técnica del avestruz: Suponer que los no respondientes darían los mismos 
resultados que los que han respondido 
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c) Análisis de sensibilidad: Se trata de determinar en qué grado tienen que ser 
diferentes los que no responden para que esto tenga efecto en el estudio. 

d) Submuestreo de los no respondientes (método más potente pero más costoso) 

e) Análisis de tendencias: llevar un registro de los que respondieron en una serie de 
visitas o llamadas y comprobar si se da alguna tendencia. 


El autor señala que la selección de uno o varios de los procedimientos está en función de los 
siguientes criterios: 
- Si se precisa realmente estimar el efecto que la ausencia de respuesta tiene sobre los 
resultados de la investigación 
- El tiempo y los recursos con los que se cuenta 
- La disposición a equivocarnos al hacer la evaluación de las características que tienen 
los que no responden. 


Un problema distinto pero que se enmarca también en la ausencia de respuesta es la negativa 
a responder. Es menos frecuente, sobre todo en entrevistas personales, ya que en las encuestas 
telefónicas resulta más factible poner alguna excusa para interrumpir la entrevista. Si la 
ausencia de respuesta es totalmente aleatoria, no representa realmente un sesgo. Sin embargo, 
este no suele ser el caso, pues aquellos sujetos que no desean responder, por lo general, 
proceden de un grupo bien definido de la población. 


Una forma previa de evitar este problema es la adecuada elaboración del cuestionario, de tal 
manera que se introduzca la motivación adecuada para evitar que los individuos se nieguen a 
contestar. Sin embargo, ya en la realización de la investigación, las soluciones que se 
presentan en tal caso son las siguientes: 

- Notificación previa de que se va a realizar una encuesta, para que el encuestado esté 
alertado, evitando levantar suspicacias. 

- Motivar al encuestado, sea por el interés de la encuesta en sí misma o bien por el 
empleo de incentivos por responder a la entrevista. 

- Contar con entrevistadores experimentados, que sean capaces de contrarrestar las 
negativas a responder. Dillon y cols. (1987) afirman que una buena técnica de 
persuasión disminuye la negativa a responder en un 7 %. 

- Un adecuado formato de formulación de las preguntas, pues una redacción clara para 
ser leída en autoinforme puede no resultar conveniente expresado verbalmente. 


Herblein y Baugmgartner (1978) encontraron que relación entre alta tasa de respuesta y los 
siguientes factores: el tipo de población muestreada, el interés social del tema de la 
investigación y el número de seguimientos. En encuestas postales, se mejora la tasa de 
respuestas cuando la investigación está avalada por una institución oficial, cuando se 
muestrea a poblaciones especializadas, se realiza un mínimo de tres seguimientos y se ofrecen 
incentivos por responder. 


Errores debidos al encuestador. El entrevistador puede producir errores en la recogida de la 
información, sea de forma directa o indirecta. En ocasiones, la interacción entre las 
características del encuestado y del entrevistador, o de cómo éste es percibido, produce 
resultados distintos. Para citar sólo un ejemplo, Morgan (1951) encontró que un grupo de 
mujeres de bajos ingresos informaban utilizar productos cosméticos de lujo. Todas las 
entrevistas habían sido realizadas por una entrevistadora muy bien vestida y maquillada. 
Cuando la entrevistadora fue sustituida por una mujer robusta, vestida y arreglada como las 
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encuestadas, las marcas de cosméticos que éstas dijeron usar, resultaron mucho menos 
costosas. 


La entrevista es una forma especial de interacción social, donde entrevistador y entrevistado 
adoptan roles opuestos. No es, por tanto, una situación social familiar para el encuestado. Es 
por ello por lo que, según Mayntz y cols. (1975), el encuestado tratará de asimilar la 
entrevista a otras situaciones que se le parezcan y que sí que le resulten parecidas. 


Tanto entrevistador como entrevistado se ven influidos por sus expectativas previas y por la 
forma en que perciben la situación y a su interlocutor. Según Mayntz y cols. (1975), el 
proceso puede ser el siguiente: El encuestado identifica al entrevistador como miembro de un 
determinado grupo social y toma conciencia de los valores y comportamientos estándar en ese 
grupo, así como de las normas sociales que regulan su propio comportamiento respecto a los 
miembros de aquel, por lo que se adapta en su comportamiento social a actitudes y valores 
tenidos por peculiares del grupo del entrevistado. Por tanto, las preguntas deben redactarse de 
forma que sean neutrales con respecto a las características del entrevistador. 


El entrevistador, a su vez, también produce expectativas en cuanto a las actitudes y conductas 
de los entrevistados. Dos problemas pueden destacarse: 

a) Tendencia a interpretar de forma selectiva las respuestas de los encuestados según 
el grupo social al que pertenecen. Esto tendrá mayor efecto cuanto menos 
estructurado esté el cuestionario o cuanto más abiertas sean las preguntas. 

b) Suponer en el entrevistado una consistencia de actitudes, interpretando las 
respuestas que éste último da en consecuencia. 


Por último, las propias actitudes del entrevistador se ha relacionado también con el registro de 
respuestas. El entrevistador también puede producir otros dos tipos de sesgos. Por una parte, 
habría que tener en cuenta las inexactitudes o equivocaciones, tanto en las preguntas 
formuladas como en el registro de respuesta. 


La otra fuente de errores es el engaño por parte del entrevistador. Se puede deber a diversas 
razones, desde evitar preguntas difíciles de realizar hasta la simplificación de su trabajo 
entrevistando a personas más fáciles o accesibles que las seleccionadas en la investigación. 


La disminución de los errores de los entrevistadores pasa por diversas soluciones: empleo de 
supervisores, entrevistadores bien entrenados y bien pagados, dar tareas e instrucciones claras, 
utilización de cuestionarios fáciles de completar, así como formas de codificación que no 
dificulten el registro de los datos. 


Errores en la medida, registro o transferencia de los datos. Los errores de medida pueden 
producirse fundamentalmente por dos diversas cuestiones: errores producto de la relación 
entrevistador-entrevistado, así como los errores cometidos en la elaboración del cuestionario. 
Los errores en el registro o en la transferencia de los datos son aquellos no achacables a 
defectos del instrumento de medida ni a errores intencionados por parte de las personas. 
Ejemplos típicos de esta fuente de error son las equivocaciones al marcar la celdilla que 
recoge la respuesta del sujeto o al introducir los datos en el ordenador. 


Aparte de introducir todos los mecanismos de previsión posibles (por ejemplo, investigar las 


respuestas extremas) es conveniente realizar un muestreo de los datos una vez han sido 
codificados y mecanizados para estimar la proporción de errores en los mismos. Si esta 
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proporción de errores rebasase un cierto límite (a fijar por el investigador en función de la 
fiabilidad que requiera su estudio) se debería repasar el proceso de captura de datos desde el 
principio. 


5.2.- Sesgos debidos al muestreo 


Es la diferencia entre el valor de la población de estudio y el valor esperado de la muestra. 
Son de dos tipos, sesgos de selección y sesgos de estimación. 


Sesgos de selección: cuando no todos los miembros de la población tienen iguales 
probabilidades de selección. Entre ellos encontramos las omisiones y las duplicaciones. 

- Enlos debidos a las omisiones se incluyen los errores que tienen su origen en un censo 
incorrecto. Si faltan en el censo algunos de los sujetos de la población, su probabilidad 
de ser incluidos en la muestra será nula, violando el supuesto básico del muestreo de 
que todos los sujetos tienen idéntica probabilidad de formar parte de la muestra. El 
problema es menor si se conoce que hay omisiones, y se puede corregir, si el coste de 
tal corrección no lo hace inviable. Sin embargo, cuando se desconoce, resulta difícil de 
evaluar. En tal caso, quizá fuera conveniente el plantearse otros procedimientos de 
muestreo, por ejemplo, conglomerados en lugar de censos. 

- En cuanto a las duplicaciones, puede ocurrir que, por determinadas razones, un 
individuo aparezca más de una vez en la lista. Por ejemplo, supóngase que se desea 
hacer una lista de los alumnos que forman un determinado curso de Psicología. Por 
regla general, no existe en este caso una lista única, sino que hay un listado para cada 
asignatura de ese curso en particular, con lo que los alumnos aparecerán más de una 
vez. Cuando este problema se da, pero se conoce antes de proceder al muestreo de las 
unidades muestrales, exige una depuración cuidadosa de las listas, hasta confeccionar 
una lista única. Sin embargo, si el problema se detecta más tarde, la única solución es 
la ponderación. 


Sesgos de estimación: cuando la media calculada usando una técnica de estimación en todas 
las muestras aleatorias simples no es igual al valor de la población de estudio. También se 
comete error de estimación cuando no se selecciona el estimador más adecuado para la 
investigación en cuestión. Puesto que lo más habitual es estimar medias o proporciones, 
parece casi imposible cometer este error en la práctica, pero es conveniente tenerlo en cuenta 
en casos especiales. 


Variabilidad muestral. El último componente del error total se debe a las fluctuaciones de 
los estimadores muestrales en torno a los parámetros de la población estudiada que resultan 
del proceso de selección, de tal manera que las distintas muestras de una misma población 
diferirán en los valores que toman los estadísticos, debido al azar. Esta es una de las razones 
por las que los estadísticos se consideren variables aleatorias, pues varían por efecto del azar. 
Los sesgos de este apartado tienen que ver con la precisión de los estimadores. Dos son los 
problemas que se plantean: 
a) Se desea saber lo próximo que esta el valor del estadístico obtenido en la muestra 
del valor poblacional. Una solución para ello es calcular el intervalo de confianza. 
b) La desviación típica de la distribución muestral rara vez se conoce en situaciones 
reales de investigación, ya que se elige una muestra y no repetidas muestras. La 
desviación típica de la población se estima de la de la muestra. Dos factores 
influyen aquí de forma relevante: la variabilidad de la variable, esto es, su 
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desviación típica y el tamaño muestral. Cuanto mayor sea el tamaño muestral, 
menor será la desviación típica de la distribución muestral. 


Minimización de errores. La planificación adecuada, organizada y precisa es el mejor 
procedimiento con el que cuenta el investigador para minimizar los errores en su estudio. Ello 
exige prestar atención a diversas cuestiones, en momentos distintos. Henry (1990) señala que 
la planificación de un diseño de encuestas supone tomar decisiones sobre cuestiones que son 
previas al muestreo, en el procedimiento de muestreo y una vez finalizada la encuesta. 


Las cuestiones sobre las que es preciso distinguir antes de proceder al muestreo incluyen 
aspectos como tipo de investigación (exploratoria, descriptiva, relacional), que se va a llevar a 
cabo, definición de la población objetivo, determinación de variables relevantes, 
consideración sobre si hay grupos o subgrupos dentro de la población que requieran ser 
tratados de forma diferencial en el muestreo. 


En este apartado se decide también el procedimiento de recogida de datos y la dilucidar, en 
caso de poblaciones pequeñas, la conveniencia o no de encuestar una muestra o a toda la 
población. En una segunda fase, el investigador debe plantearse las tomas de decisión 
referentes al muestreo en sí, que recogen aspectos tales como la forma de seleccionar a los 
sujetos, el error con el que va a trabajar, la técnica de muestreo que parece más conveniente 
para el estudio concreto, establecer la probabilidad de elección de los sujetos y determinar el 
número de sujetos que van a ser encuestados. 


Por último, el investigador debe también cuestionarse líneas de acción una vez finalizada la 
recogida de datos. Estas incluyen la forma de proceder para evaluar los posibles sesgos de los 
que no responden, la necesidad de compensar otros sesgos vía ponderación y la determinación 
del error típico, a través de la variabilidad muestral. 
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